Pràctica 7 — Problema 6
Anàlisi de Dades 2024-25
Enllaç git.
Enunciat
La sèrie temporal ts_1 correspon a les vendes (en milers d’unitats) d’un producte en una empresa durant diversos trimestres consecutius. L’empresa cerca desenvolupar un model de pronòstic per predir les vendes futures del producte. Per això, dividiu la sèrie temporal en dos trossos: un 80% de les primeres observacions les utilitzareu per “aprendre” i deixareu el 20% restant per avaluar la capacitat predictiva del model.
(6.1) Descriviu la sèrie temporal d’aprenentatge: gràfic de la sèrie original, detecció de la tendència, anàlisi de la variabilitat i estacionalitat (en el cas que apliqui).
(6.2) Analitzau els gràfics ACF i PACF. Descomposau la sèrie d’acord amb un model additiu i un de multiplicatiu, seleccioneu el millor. Finalment, feis prediccions amb el model additiu o multiplicatiu que heu seleccionat, dibuixau els vostres pronòstics sobre la sèrie total (aprenentatge + test). Calculau l’error quadràtic mitjà de les prediccions i comentau el resultat en el context del problema.
?decompose diu This only works well if ‘x’ covers an integer number of complete
Introducció
Anàlisi exploratòria
En primer lloc, notem que tenim 48 dades, és a dir, 12 períodes complets de quatre trimestres. Emperò, el 80% de 48 dona aproximadament 38, que no és múltiple del període. Aleshores, per facilitar l’anàlisi agafarem les primeres 36 mostres (el 75%, que correspon a 9 períodes) d’aprenentatge, i deixarem les 12 restants (3 períodes) per les prediccions.
Una vegada agafat el nombre de mostres, dibuixem la sèrie temporal de dades (el primer 75%) per tenir una primera visió de les dades. Com que no tenim cap informació del començament de la sèrie, enumerarem la sèrie començant pel període 1, on cada període té una durada d’un any (quatre trimestres), tot i que no té perquè començar al gener ja que no tenim informació al respecte.
A simple vista es pot apreciar un comportament oscil·lant i, per tant
A més, presenta una tendència clarament positiva (començam al voltant dels 60 milers i acabam al voltant del 120 milers). També s’aprecia una variabilitat més o manco constant, tot i que hi ha alguns períodes (6-7 o 9-10) amb pics més grans. Finalment, no s’aprecia cap fluctuació cíclica, la sèrie pareix bastant constant, tenint en compte l’estacionalitat i la tendència.
També podem estudiar l’estacionalitat amb un boxplot per cadascun dels trimestres.
Shapiro-Wilk normality test
data: df_aux$data
W = 0.95086, p-value = 0.1113
Bartlett test of homogeneity of variances
data: data by mes2
Bartlett's K-squared = 1.5703, df = 3, p-value = 0.6661
Df Sum Sq Mean Sq F value Pr(>F)
mes2 3 6007 2002.3 3.552 0.0251 *
Residuals 32 18037 563.7
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Pairwise comparisons using paired t tests
data: df_aux$data and df_aux$mes2
1 2 3
2 0.0115 - -
3 0.0235 0.0021 -
4 0.0159 0.3520 0.0036
P value adjustment method: holm
Amb un test d’anova i de comparació de mitjanes veim que hi ha diferències significatives entre les mitjanes del 3r al 4t i 2n semestre, i p-valors propers a 0.1 entre el 1r al 2n i 4t semestre. Així, podem corroborar que es dona l’estacionalitat esmentada.
ACF i PACF
Vegem els gràfics ACF i PACF.
En el primer gràfic (ACF) es pot observar una clara estacionalitat, idò s’aprecia un comportament oscil·lant i repetitiu. A més, les correlacions decreixen poc a poc degut a la tendència. Pel que fa al PACF, es pot veure que una observació influeix significativament a dos trimestres més endavant (també influeix al següent però de manera no tan significativa).
Models additiu i multiplicatiu
Hem vist a l’anàlisi exploratòria que la variabilitat no creix amb el temps. Per tant, esperam que un model additiu s’ajusti més que un de multiplicatiu.
El model additiu és el següent.
Com es pot apreciar, hi ha una tendència creixent i una forta estacionalitat. Vegem ara el multiplicatiu
De la mateixa manera es veu una tendència creixent, estacionalitat i, comparant-ho amb l’additiu, no s’aprecien moltes diferències.
Miram si millor model multiplicatiu o additiu
(aixi com està no se si se poden comparar, no tenen mateixa escala)
[1] 47.30638
[1] 0.006497169
Pentura a nes grafic següent calculam distàncies entre original i cada model, i mos quedam amb es que minimitzi sa distància? (MSE com demana a s’exercici)
[1] 45.92741
[1] 44.54814
Mirem quins dels residuals de les sèries anteriors segueix una distribució normal, ja que si els errors segueixen normalitat (White noise), llavors ens indica que el model està ben ajustat. Fem la prova d’Agostino per ambdós models:
Prueba de Agostino para Modelo Aditivo:
D'Agostino skewness test
data: residuales_add
skew = -0.055484, z = -0.148947, p-value = 0.8816
alternative hypothesis: data have a skewness
Prueba de Agostino para Modelo Multiplicativo:
D'Agostino skewness test
data: residuales_mult
skew = 0.24219, z = 0.64528, p-value = 0.5187
alternative hypothesis: data have a skewness
Com podem comprovar, cap dels models té uns residuals que segueixin una distribució normal, així, concloem dient que els models no són bons.
Pronòstic
<<<<<<< HEAD
Com podem observar, la previsió no és gens bona, llavors hauríem de preveure la sèrie amb un altre model.